Medidas de similaridade

Em estatística e campos relacionados, uma medida de similaridade ou função de similaridade ou métrica de similaridade é uma função de valoreal que quantifica a similaridade entre dois objetos. Embora não exista uma definição única de similaridade, geralmente tais medidas são, em certo sentido, o inverso das métricas de distância: elas assumem maiores valores para objetos semelhantes e zero ou um valor negativo para objetos muito diferentes. Embora, em termos mais amplos, uma função de similaridade também possa satisfazer axiomas métricos.

A similaridade por cosseno é uma medida de similaridade comumente usada para vetores de valor real, usada (entre outros campos) na recuperação de informações para pontuar a similaridade de documentos no modelo de espaço vetorial . No aprendizado de máquina, as funções comum do Kernel, como o Kernel RBF, podem ser vistas como métricas de similaridade.^[1]

Existem diferentes tipos de medidas de similaridade para vários tipos de objetos, dependendo dos objetos que estão sendo comparados. Para cada tipo de objeto existem várias fórmulas para métricas de similaridade.^[2]

Similaridade entre dois pontos de dados

Distância euclidiana
Distância de Manhattan (Geometria do táxi)
Distância de Minkowski
Distância de Chebyshev

Semelhança entre strings

Semelhança entre duas distribuições de probabilidade

Distância de Mahalanobis
Distância de Bhattacharyya
Distância de Hellinger

Semelhança entre dois conjuntos

Índice Jacard
Coeficiente de Sørensen

↑ Vert, Jean-Philippe; Tsuda, Koji; Schölkopf, Bernhard (2004). «A primer on kernel methods». Kernel Methods in Computational Biology. [S.l.: s.n.]
↑ https://iq.opengenus.org/similarity-measurements/ "Different Types of Similarity measurements"

[primer-1] Vert, Jean-Philippe; Tsuda, Koji; Schölkopf, Bernhard (2004). «A primer on kernel methods». Kernel Methods in Computational Biology. [S.l.: s.n.]

[2] ttps://iq.opengenus.org/similarity-measurements/ "Different Types of Similarity measurements"

[1]

[2]